vlm科幻影视_B站影视

VLM 实现 10%的精度提高，13.1倍加速！纽约大学新算法让视觉语言模型更小、更快、更准确

纽约大学的研究团队通过QSVD的新方法，让视觉语言模型（VLM）实现了惊人的效率飞跃，在普通GPU上获得了高达13.1倍的运行速度提升。

11 月 13 日，北京人形机器人创新中心正式开源了具身智能 VLM 模型 ——Pelican-VL 1.0，根据介绍，该模型覆盖 7B、72B 参数规模，被称为 “最大规模的开源具身多模态大脑模型”。

11月13日，北京人形机器人创新中心全面开源具身智能VLM模型——Pelican-VL 1.0。该模型覆盖7B、72B参数规模，是迄今为止“最大规模的开源具身多模态大模型”，同时，也是迄今为止全球性能最强大的具身智能VLM模型，根据测试，其性能超越GPT-5

在 AI 多模态的发展历程中，OpenAI 的 CLIP 让机器第一次具备了“看懂”图像与文字的能力，为跨模态学习奠定了基础。如今，来自 360 人工智能研究院冷大炜团队的 FG-CLIP 2 正式发布并开源，在中英文双语任务上全面超越 MetaCLIP 2

当今的 AI 智能体（Agent）越来越强大，尤其是像 VLM（视觉-语言模型）这样能「看懂」世界的智能体。但研究者发现一个大问题：相比于只处理文本的 LLM 智能体，VLM 智能体在面对复杂的视觉任务时，常常表现得像一个「莽撞的执行者」，而不是一个「深思熟虑

模型推理 rl vlm vagen 2025-10-30 16:29 13

近日，在ICCV 2025自动驾驶国际挑战赛（Autonomous Grand Challenge 2025）中，浪潮信息AI团队凭借其提出的创新框架“SimpleVSF”，以53.06的EPDMS综合得分，在端到端自动驾驶赛道中夺得冠军。该项目创新构建以鸟瞰

DeepSeek-OCR刚发布，马斯克说：从长远来看，人工智能模型的输入和输出中 99% 以上都将是光子。直到不能缩放。

近日，一篇由华人研究团队撰写的论文冲上Hugging Face论文日榜前三，并提出了一条让VLM模型摆脱人工标注、靠自己进化的新路。

自动驾驶车辆要在复杂多变的道路环境中安全行驶，不仅需要“看见”前方的车辆、行人和路面标志，还需要“读懂”交通标识上的文字提示、施工告示牌和乘客的语言指令。之前和大家讨论过VLA（相关阅读：自动驾驶中常提的VLA是个啥？），了解到视觉-语言-动作模型，但在很多场

9月16日-17日，聚合智能产业发展大会（2025）在武汉市举行，主题为“协同融合创新链产业链推动聚合智能产业发展”。聆动通用创始人兼CEO、科大讯飞机器人首席科学家季超出席并演讲。

小鹏全新P7以21.98万的起售价点燃市场热情，上市仅七分钟大定突破一万台。这一成绩也说明，小鹏最新押注的“颜值+科技”组合路线初见成效。

机器人操作是具身人工智能（Embodied AI）的关键前沿，它要求机器具备精准的运动控制和复杂的多模态理解能力。然而，传统的机器人技术在面对非结构化、充满变化的真实世界环境时，往往显得力不从心。近年来，随着大型视觉-语言模型（Large Vision-Lan